Objetivos de Aprendizagem
- Identificar gargalos arquitetônicos usando o Omniperf e o ROCProfiler.
- Otimizar padrões de acesso à memória para maximizar a taxa de transferência do HBM2e/HBM3.
- Compreender o agendamento de wavefronts e a ocupação na Unidade de Computação CDNA.
- Implementar otimizações de nível de instrução para núcleos vetoriais e matriciais.